跳到主要内容

案例3.4 视频教程

3.4.mov (182.19MB)题目:选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率。
步骤1:在“项目模板”中找到周志华习题,打开第三章线性模型习题案例3.4,创建模板。
步骤2:在“CSV上传模块”上传data数据,一般为csv格式。这里用到的是葡萄酒数据集。
版。
:骤3:拖出“数据拆分CSV”模块,在“参数设置”中将数据1比重和数据2比重设置为0.7:0.3,第一份数据作为待预测数据的测试集,用于评估分类器,剩下的作为训练集,用于构建分类器。
步骤4:在全部组件中选择带交叉验证的逻辑回归模块LogisticRegressionCV。在“参数设置”中,把Cs改为0.0001,0.0001.较小的值制定更强的正则化。是正则强度的倒数。Cv交叉验证生成器设置为10,意思为分层10折,10折交叉验证即把数据集随机分成10份,其中9份用于训练而另一份用作测试。该过程重复10次,每次用的测试数据不同。具有随机性,非确定性。特征字段里勾选跟前面的相同。其他参数不用更改。
步骤5:在全部组件里搜索“模型预测”,把测试集数据和经过10折交叉验证的数据模型连接,设置好特征字段。
步骤6:在全部组件里搜索“多分类评估”MultiClass模块,多分类评估组件时专门用于多分类模型的预测结果评估。在“字段设置”中的“标签列”输入“class”,预测列为prediction。在“参数设置”中的“评估指标”中选择accuracy_score即可。Accuracy_score函数计算正确预测的精度。
至此已经可以从头开始运行,查看10折交叉验证的准确率结果。
0.7037037037
步骤7:在全部组件中搜索并拖出“逻辑回归”LogisticRegression模块。组件ID为1721.
在“字段设置”的“特征字段”中输入“Alcohol,Malic acid,Ash,AshAlcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline”,“标识字段”为class。
logistic回归分类器,multi class设置为“ovr”,训练算法使用一对多休息方案。在求解器支持“多项式”选项时可以选择“多项式”。“liblinear”求解器实现正则逻辑回归,支持L1和 L2正则化。默认情况下正则化应用,它可以处理密集和稀疏输入。适合小型数据集。
c为正则强度的倒数,默认为1。其他参数基本不用动,如果需要改,可以点击模块,查看帮助文档链接。
留一法:n折交叉验证(n为数据集中样本的数目)。每次迭代都使用了最大可能数目的样本来训练。具有确定性。但是计算量很大,所以适合小型数据集。
步骤8:拖出模型预测组件和多分类评估组件,参数设置和字段设置跟10折交叉验证相同。
点击从头开始运行,同时进行留一法和10折交叉验证,查看结果。0.94。